

JAPANESE GOVERNMENT

別紙添付の書類に記載されている事項は下記の出願書類に記載されて ゝる事項と同一であることを証明する。

This is to certify that the annexed is a true copy of the following application as filed ith this Office.

出 願 年 月 日 Date of Application:

1999年 9月22日

出 頤 番 号 Application Number:

平成11年特許願第267889号

Applicant (s):

株式会社東芝

CERTIFIED COPY OF PRIORITY DOCUMENT

2000年 6月 9日





【書類名】

特許願

【整理番号】

13A9990261

【あて先】

特許庁長官殿

【国際特許分類】

G06F 9/38

【発明の名称】

中央演算装置、コンパイル方法、及びコンパイルプログ

ラムを記録した記録媒体

【請求項の数】

11

【発明者】

【住所又は居所】

神奈川県川崎市幸区小向東芝町1番地 株式会社東芝

研究開発センター内

【氏名】

吉川 宜史

【特許出願人】

【識別番号】

000003078

【氏名又は名称】

株式会社 東芝

【代理人】

【識別番号】

100083161

【弁理士】

【氏名又は名称】

外川 英明

【電話番号】

03-3457-2512

【手数料の表示】

【予納台帳番号】

010261

【納付金額】

21,000円

【提出物件の目録】

【物件名】

明細書 1

【物件名】

図面 1

【物件名】

要約書 1

【プルーフの要否】

要

# 【書類名】 明細書

【発明の名称】 中央演算装置、コンパイル方法、及びコンパイルプログラムを 記録した記録媒体

# 【特許請求の範囲】

# 【請求項1】

複数の演算実行ユニットと該演算実行ユニットに属する複数のバッファを備え 、プログラムの命令列を前記バッファに割り当てる中央演算装置において、

前記プログラムが予め定められたデータ依存性を有する命令列の単位で区切られ、各命令列間の制御依存性は所定の条件により該命令列を承認もしくは否認するコミット命令により表現され、該命令列間のデータ依存性は該命令列に含まれる命令がデータの生成側か消費側かを示すフラグを該命令が使用するレジスタに付与することにより表現され、

前記データ依存性を有する命令列が該命令列の単位で区切られたプログラム区間のいずれに属する命令列であるかを識別するための識別番号を該命令列に含まれる命令毎に付与する識別番号付与手段と、前記データ依存性を有する命令列の単位で命令を前記複数のバッファに割り当てる演算器割当手段と、特定の命令列が前記コミット命令の実行により承認された場合にのみレジスタを更新させるレジスタ更新手段と、特定の命令列が前記コミット命令の実行により承認された場合にのみメモリを更新させるメモリ更新手段とを備えたことを特徴とする中央演算装置。

### 【請求項2】

前記識別番号付与手段は、

直前の命令に付与した識別番号を保持する識別番号カウンタ手段と、

識別番号を付与すべき命令が前記コミット命令以外の命令である場合には、前記カウンタ手段に保持されている識別番号と同じ識別番号を付与し、識別番号を付与すべき命令が前記コミット命令である場合には、前記識別番号カウンタ手段に保持されている識別番号を1だけ増加させた識別番号を付与する手段とを含むことを特徴とする請求項1に記載の中央演算装置。

### 【請求項3】

前記演算器割当手段は、

前記データ依存性を有する命令列が、前記複数のバッファのいずれに割り当て られているかを示す情報を保持し、

ある命令が属する前記データ依存性を有する命令列に対するバッファの割り当 てが存在する場合には、前記情報を参照して該命令を該命令列に対応するバッフ ァに割り当て、該命令列に対するバッファの割り当てが存在しない場合には、前 記複数のバッファの中から、処理が行なわれていないバッファを選んで該命令を 割り当てることを特徴とする請求項1に記載の中央演算装置。

### 【請求項4】

前記演算器割当手段は、

予め定められた規則により各データ依存性を有する命令列を前記複数のバッファに割り当てることを特徴とする請求項1に記載の中央演算装置。

### 【請求項5】

前記レジスタ更新手段は、

前記複数のバッファから特定の命令が消去される際に、前記特定の命令を含む 前記データ依存性を有する命令列が前記コミット命令の実行により承認された場 合には、該特定の命令が特定のレジスタに退避した結果を用いてレジスタを更新 し、該命令列が前記コミット命令の実行により否認された場合にはレジスタの更 新を行なわないことを特徴とする請求項1に記載の中央演算装置。

#### 【請求項6】

前記メモリ更新手段は、

前記演算実行ユニットで実行されたストア命令に関する情報を保持し、前記複数のバッファから前記ストア命令が消去される際に、前記ストア命令が含まれる前記データ依存性を有する命令列が前記コミット命令の実行により承認された場合には該ストア命令が登録した情報を用いてメモリを更新し、該命令列が前記コミット命令の実行により否認された場合にはメモリの更新を行なわないことを特徴とする請求項1に記載の中央演算装置。

### 【請求項7】

前記フラグが付与されたレジスタを使用する命令をデコードする際に、該レジ

スタを使用不可とし、該レジスタが命令により更新された際に該レジスタを使用 可とすることを特徴とする請求項1に記載の中央演算装置。

### 【請求項8】

前記演算実行ユニットは、

特定の命令の実行結果を命令の出力オペランドとは異なるレジスタに一旦退避 し、該特定の命令が含まれる前記データ依存性を有する命令列が前記コミット命 令の実行により承認されたのちに、該レジスタの情報をレジスタ更新手段に送る ことを特徴とする請求項1に記載の中央演算装置。

### 【請求項9】

前記複数のバッファから該演算実行ユニットに送ることが可能な命令が複数存在する場合に、投機的でない命令を投機的な命令より優先させて該演算実行ユニットに送ることを特徴とする請求項1に記載の中央演算装置。

### 【請求項10】

複数の演算実行ユニットと該演算実行ユニットに属する複数のバッファを備え、プログラムの命令列を前記バッファに割り当てる中央演算装置で実行されるプログラムを生成するコンパイル方法であって、

前記プログラムを予め定められたデータ依存性を有する命令列の単位で区切ったときに、該命令列のいずれに属する命令であるかを識別するための識別番号を命令毎に付与するとともに、該命令列間の制御依存性を表現するために、該命令列の承認もしくは否認を行なうコミット命令を発行し、該命令列間のデータ依存性を表現するために、該命令列に含まれる命令がデータの生成側か消費側かを示すフラグを該命令が使用するレジスタに付与することを特徴とするコンパイル方法。

# 【請求項11】

複数の演算実行ユニットと該演算実行ユニットに属する複数のバッファを備え 、プログラムの命令列を前記バッファに割り当てる中央演算装置で実行されるプログラムを生成するコンパイル手順であって、

前記プログラムを予め定められたデータ依存性を有する命令列の単位で区切ったときに、該命令列のいずれに属する命令であるかを識別するための識別番号を

命令毎に付与するとともに、該命令列間の制御依存性を表現するために、該命令 列の承認もしくは否認を行なうコミット命令を発行し、該命令列間のデータ依存 性を表現するために、該命令列に含まれる命令がデータの生成側か消費側かを示 すフラグを該命令が使用するレジスタに付与する手順を含むコンパイル手順をコ ンピュータで実行するためのコンパイルプログラムを記録したコンピュータ読み 取り可能な記録媒体。

### 【発明の詳細な説明】

[0001]

# 【発明の属する技術分野】

本発明は、複数の命令を並列実行可能な中央演算装置、中央演算装置で実行されるプログラムを生成するコンパイル方法、およびコンパイルプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

[0002]

# 【従来の技術】

命令並列度の向上は、計算機システムの高性能化を図る方法の一つである。制御依存性(条件分岐先の命令は、分岐条件を出力する演算が完了して条件が確定するまでは実行できない)や、データ依存性(命令は、その入力を生成する全ての命令が完了するまでは実行できない)は並列度を向上させる上での大きな障害となり、十分な命令並列度を得るためにはこれらの依存性を投機的に解除する方式が必要となる。

[0003]

互いに依存性のある命令を並列実行する従来の方式としては、制御依存性についてはpredicated executionと分岐予測があり、データ依存性についてはdependence collapsingとvalue predictionがある。以下、これらの方式について説明する。

[0004]

predicated exeutionは命令にpredicateと呼ばれる新たなソースオペランドを付加し、predicateの真偽によりその命令が実行されるべきかどうかを表現するものである。

[0005]

図27にpredicate付き命令を含まないプログラムコードの一例を示す。この例では、条件分岐命令beqにより、レジスタr3の値とレジスタr4の値とが等しい場合にはラベルL2に分岐し、等しくない場合にはbeqの次の命令が実行される。

[0006]

図28は図27のプログラムコードと同じ内容をpredicate用いて表したものである。(1)のpseq命令(predicateセット命令)は、条件が成立した場合、本例ではレジスタr3の値とレジスタr4の値とが等しい場合に、p1にpredicate値として1を、p2にpredicate値として0をセットする。一方、条件が成立しない場合、本例ではレジスタr3の値とレジスタr4の値とが等しくない場合に、p1を0に、p2を1にセットする。

[0007]

また、図 $280(2) \sim (4)$  のように、< p1>あるいは< p2>のようなpredicateが付いた命令については、< >内の変数がpseq命令より1にセットされた場合にのみ、その命令の結果がレジスタに反映される。一方、(5) のように、predicateが付いていない命令については、常に、その命令の結果がレジスタに反映される。

[0008]

したがって、図28のプログラムコードにおいて、レジスタr3の値とレジスタr4の値とが等しいときは、pseq命令によりp1に1、p2に0がセットされ、このとき< p1>が付いた命令"s11 r6, r10, 2", "1i r5, 1" と、predicateが付いていない命令"move r2, r5"の結果だけがレジスタに反映されることになるため、図27でL2に分岐した場合と同様の結果が得られる。同様に、レジスタr3の値とレジスタr4の値とが等しくないときは、p1は0、p2は1にセットされ、このとき< p2>が付いた命令"1i r5, 0" と、predicateが付いていない命令"move"

でL2に分岐しなかった場合と同様の結果となる。

[0009]

predicated executionの実施形態としては、predicateの真偽によらず命令を実行し、真偽が判明した時点で真の命令の実行結果のみを状態に反映させる方法と、predicateの真偽が判明するまで命令を実行せず、真と判明した命令のみを実行する方法があるが、制御依存する命令を並列に実行できるのは前者の方法だけである。

[0010]

分岐予測方式は、条件分岐命令の分岐先を条件が決まる前に予測する方式である。予測方法としては、分岐予測先を静的に指定する方法(例えば、ループの繰り返しを判定するための条件分岐命令は、常に分岐すると予測する方法)や、専用のハードウェアを用いて動的に予測する方法(例えば、分岐命令ごとに前回の分岐方向を記録しておき、次回の分岐時には前回と同じ方向に分岐すると予測する方法)、これらの2つを組み合わせる方法があり、それぞれの方法に対して様々な実現手段が提案されている。

[0011]

演算装置は予測先の命令を投機的に実行しておき、予測した分岐命令の条件が確定した時点で、予測が正しかったかどうかを判定する。予測が正しい場合には投機的に実行した命令の結果を演算装置の状態に反映させる。予測が誤っていた場合には投機的に実行した命令の結果は捨てられ、正しい分岐先に戻ってプログラムコードの実行を再開する。

[0012]

dependence collapsingでは、データ依存する命令列を特殊な演算器で実行できる1命令に変換して実行する方式である。主に浮動小数 点演算やマルチメディア演算に適用されている。

[0013]

value predictionは命令の入力が確定する前にその出力結果を予測する方式である。出力が予測された命令にデータ依存する命令列を予測された値を元に実行することで、データ依存する2つの命令列を並列に実行するこ

とができるようになる。

[0014]

出力結果を予測する方法には、命令が前に出力した結果を記録しておき、その値を次回の予測値とする方法や、出力が特定の法則(例えば、出力値が一定の割合で増減しているという法則や、何種類かの出力値が一定の順序で繰り返し出力されているという法則など)によって変化しているような命令を発見し、その法則に従って出力を予測する方法等が提案されている。

[0015]

value predictionは現在の所はまだ研究段階であり、予測の 適用率(予測を必要とする動的な命令数に対する、実際に予測が適用できた命令 数の割合)、予測的中率(予測を適用した命令数に対する、予測が正しかった命 令数の割合)ともにそれほど高くはなく、この手法を採用している一般的な演算 装置は存在していない。

[0016]

# 【発明が解決しようとする課題】

上述した依存性のある命令の並列実行方式のうち、まずpredicated executionについては、分岐先の1方向に存在する命令は実行する必要がないにもかかわらず、両方向に存在する命令を実行しなければならないという問題がある。実行する必要のない命令により演算器が占有されると有効な命令の実行率が低下するため、全体の命令実行効率は低下してしまう。

[0017]

また、predicated executionにおいては、命令間の制御 依存関係はpredicateを介したデータ依存関係に置換されるため、predicateをセットする命令列(変換前は分岐命令の条件をセットする命令列)とpredicateを入力とする命令列(変換前は分岐先の命令列)は依然依存関係にあり、これらの命令列はプログラムコード上に依存順に配置される必要がある。よって、複数の分岐命令を越えた先の命令をoutーofーorder実行するためには、命令がoutーof-order実行できるかどうかを判定する装置(例えば、スーパースカラでは命令ウィンドウ)に多くのエントリ

を持たせる必要が生じる。

[0018]

分岐予測においては、ある分岐命令で分岐先の予測を誤ると、最悪の場合それ 以後に実行される命令の全てが必要のない命令になってしまうという問題がある 。個々の分岐命令の予測的中率は高くても、分岐予測が複数回連続して的中する 確率は低くなるため、複数の分岐命令を越えた先にある命令の実行は、多くの場 合無駄な命令実行になる。

[0019]

また、制御依存する命令をプログラムコード上に並列に配置することはできないため、複数の分岐命令を越えた先の命令をoutーofーorder実行する場合には、predicated executionと同様に規模の大きなハードウェアが必要となる。

[0020]

dependence collapsingは、浮動少数点演算のような複雑な命令の演算時間を短縮する効果があるが、単純な命令ではさほど効果はない。また、変換後の命令を実行するための、専用の演算器が必要となる。

[0021]

value predictionでは、命令の出力結果を予測することにより、その命令以後の命令列と、その命令がデータ依存する命令列とを並列に実行できるようになる。しかしながら、これらの命令列は予測が正しかったかどうかを確認するために、プログラムコード上に元のデータ依存順に配置されなければならない。よって、predicated executionや分岐予測と同様、十分なout-of-order実行を行うには多くのエントリを持ったout-of-order実行判定装置が必要となる。

[0022]

本発明は、上記事情を考慮してなされたもので、より小さなout-of-order実行判定装置を用いて、従来のハードウェアで実現されていたout-of-order実行より広い範囲でのout-of-order実行を可能とし、かつ不必要な命令実行が生じた場合においても、性能低下の度合を従来の手

法より小さくすることを可能とする中央演算装置及びコンパイル方法を提供する ことを目的とする。

[0023]

【課題を解決するための手段】

本発明は、複数の演算実行ユニットと該演算実行ユニットに属する複数のバッ ファを備え、プログラムの命令列を前記バッファに割り当てる中央演算装置(例 えば、スーパースカラプロセッサ)において、前記プログラムが予め定められた データ依存性を有する命令列(タスク)の単位で区切られ、各命令列間の制御依 存性は所定の条件により該命令列を承認もしくは否認するコミット命令により表 現され、該命令列間のデータ依存性は該命令列に含まれる命令がデータの生成側 か消費側かを示すフラグを該命令が使用するレジスタに付与することにより表現 され、前記データ依存性を有する命令列が該命令列の単位で区切られたプログラ ム区間のいずれに属する命令列であるかを識別するための識別番号を該命令列に 含まれる命令毎に付与する識別番号付与手段と、前記データ依存性を有する命令 列の単位で命令を前記複数のバッファに割り当てる演算器割当手段と、特定の命 令列が前記コミット命令の実行により承認された場合にのみレジスタを更新させ るレジスタ更新手段(例えばグローバルレジスタ更新部)と、特定の命令列が前 記コミット命令の実行により承認された場合にのみメモリを更新させるメモリ更 新手段(例えばストアバッファ)とを備えたことを特徴とする中央演算装置を提 供する。

[0024]

ここで、前記識別番号付与手段は、直前の命令に付与した識別番号を保持する 識別番号カウンタ手段と、識別番号を付与すべき命令が前記コミット命令以外の 命令である場合には、前記カウンタ手段に保持されている識別番号と同じ識別番 号を付与し、識別番号を付与すべき命令が前記コミット命令である場合には、前 記識別番号カウンタ手段に保持されている識別番号を1だけ増加させた識別番号 を付与する手段とを含むようにしてもよい。

[0025]

また、前記演算器割当手段は、前記データ依存性を有する命令列が、前記複数

のバッファのいずれに割り当てられているかを示す情報を保持し、ある命令が属する前記データ依存性を有する命令列に対するバッファの割り当てが存在する場合には、前記情報を参照して該命令を該命令列に対応するバッファに割り当て、該命令列に対するバッファの割り当てが存在しない場合には、該命令が割り当てられた前記複数のバッファの中から、処理が行なわれていないバッファを選んで該命令を割り当てるようにしてもよい。

# [0026]

一方、前記演算器割当手段は、予め定められた規則により各データ依存性を有 する命令列を前記複数のバッファに割り当てるようにしてもよい。

### [0027]

#### [0028]

また、前記メモリ更新手段は、前記演算実行ユニットで実行されたストア命令に関する情報を保持し、前記複数のバッファから前記ストア命令が消去される際に、前記ストア命令が含まれる前記データ依存性を有する命令列が前記コミット命令の実行により承認された場合には該ストア命令が登録した情報を用いてメモリを更新し、該命令列が前記コミット命令の実行により否認された場合にはメモリの更新を行なわないようにしてもよい。

#### [0029]

また、前記フラグが付与されたレジスタを使用する命令をデコードする際に、 該レジスタを使用不可とし、該レジスタが命令により更新された際に該レジスタ を使用可とするようにしてもよい。

### [0030]

また、前記演算実行ユニットは、特定の命令の実行結果を命令の出力オペランドとは異なるレジスタに一旦退避し、該特定の命令が含まれる前記データ依存性

を有する命令列が前記コミット命令の実行により承認されたのちに、該レジスタ の情報をレジスタ更新手段に送るようにしてもよい。

[0031]

また、前記複数のバッファから該演算実行ユニットに送ることが可能な命令が 複数存在する場合に、投機的でない命令を投機的な命令より優先させて該演算実 行ユニットに送るようにしてもよい。

[0032]

なお、上記した本発明にかかる中央演算装置は、中央演算装置における命令処理方法として実施することもできる。

[0033]

さらに、本発明では、複数の演算実行ユニットと該演算実行ユニットに属する 複数のバッファを備え、プログラムの命令列を前記バッファに割り当てる中央演 算装置で実行されるプログラムを生成するコンパイル方法であって、前記プログ ラムを予め定められたデータ依存性を有する命令列の単位で区切ったときに、該 命令列のいずれに属する命令であるかを識別するための識別番号を命令毎に付与 するとともに、該命令列間の制御依存性を表現するために、該命令列の承認もし くは否認を行なうコミット命令を発行し、該命令列間のデータ依存性を表現する ために、該命令列に含まれる命令がデータの生成側か消費側かを示すフラグを該 命令が使用するレジスタに付与することを特徴とするコンパイル方法を提供する

[0034]

なお、上記した本発明にかかるコンパイル方法は、コンパイル装置として実施 することもできる。

[0035]

さらに、本発明では、複数の演算実行ユニットと該演算実行ユニットに属する 複数のバッファを備え、プログラムの命令列を前記バッファに割り当てる中央演 算装置で実行されるプログラムを生成するコンパイル手順であって、前記プログ ラムを予め定められたデータ依存性を有する命令列の単位で区切ったときに、該 命令列のいずれに属する命令であるかを識別するための識別番号を命令毎に付与 するとともに、該命令列間の制御依存性を表現するために、該命令列の承認もし くは否認を行なうコミット命令を発行し、該命令列間のデータ依存性を表現する ために、該命令列に含まれる命令がデータの生成側か消費側かを示すフラグを該 命令が使用するレジスタに付与する手順を含むコンパイル手順をコンピュータで 実行するためのコンパイルプログラムを記録したコンピュータ読み取り可能な記 録媒体を提供する。

### [0036]

本発明では、ある命令の実行前に、その命令と制御依存関係、またはデータ依存関係にある命令を投機的に実行する命令処理方式において、データ依存する命令列(の各命令)に対して、データ依存列ごとに固有の識別番号を付加することにより、データ依存する命令列に属する命令をグループ(タスク)として管理することで、命令と命令の制御依存関係をプログラム上の配置位置に依らずに表現可能とし(該識別番号を持つ命令を条件により承認もしくは否認するコミット命令を発行することで制御依存関係の表現を可能とし)、さらに制御投機的に実行可能な命令を選択し実行するために必要なハードウェアを、従来の制御投機的命令実行方式に比較してより少なくすることができる(例えば、従来の命令ウィンドウよりも記憶容量の小さいハードウェアで、且つ、従来の投機的実行方式よりも小さな命令集合から実行可能な命令を選び出すことにより、効果的な制御投機的命令実行を可能とする)。

### [0037]

また、命令と命令のデータ依存関係を、データを生成する命令の出力レジスタ、またはデータを消費する命令の入力レジスタに、それぞれ生成フラグ、消費フラグを付加することにより、命令と命令のデータ依存関係をプログラム上の配置位置に依らずに表現可能とし(生成フラグ、消費フラグの付加された命令のフェッチ時に該レジスタを使用不可とし、レジスタの値が更新されたときに使用可とすることでデータ依存する命令間の実行順序を保証し)、さらにデータ投機的に実行可能な命令を選択し実行するために必要なハードウェアを、制御投機的実行と同様の理由により、従来のデータ投機的命令実行方式に比較してより少なくすることができる。

[0038]

このように、本発明によれば、単純なハードウェアにより効果的な命令の投機 的実行が可能となる。

[0039]

また、これにより、単純なハードウェアが要求されるプロセッサにおいても投機的実行が可能になるという効果がある。また、投機的に実行可能な命令を選び出すためのハードウェアが小さいために、より多くの分岐命令を越える制御投機的実行や、より多くのデータ依存列を超えるデータ投機的実行が可能となり、一般的な方式による投機的実行より性能が向上するという効果がある。さらに、本発明は命令が投機的か否かをプログラム上に明示し、演算ユニットの使用に際しては投機的でない命令を優先させることにより、実際には実行する必要のない命令が投機的に実行されることによる性能低下を防ぐことが可能となるという効果がある。

[0040]

### 【発明の実施の形態】

以下、図面を参照しながら発明の実施形態を説明する。

[0041]

図1は、本実施形態に係るプロセッサ(中央演算装置)の構成例を示すブロック図である。

[0042]

図1に示されるように、本実施形態に係るプロセッサは、メモリ1、アドレス生成部2、命令フェッチ部3、命令キュー4、命令デコード部5、タスクウィンドウ識別子生成部(識別番号付与手段)6、演算器割当部(演算器割当手段)7、実行キュー(バッファ)8~10、オペランド状態判定部11、ローカルレジスタ15~17、命令実行ユニット(演算実行ユニット)12~14、グローバルレジスタ18、グローバルレジスタ更新部(レジスタ更新手段)19、ロードバッファ20、ストアバッファ(メモリ更新手段)21を持つ。

[0043]

なお、本プロセッサの持つ命令実行ユニット(12~14)の個数は一例であ

り、これに限定されるものではない。また、図1の例では、レジスタは全ての命令により使用できるグローバルレジスタ(19)と、特定の演算ユニットに属する命令キューにある命令のみ利用できるローカルレジスタ(15~17)に分割されているが、グローバルレジスタのみを用いる実施形態も考えられる。

### [0044]

本実施形態では、コンパイラによりデータ依存すると見なされた命令列を「タスク」と呼ぶものとする。つまり、タスクに属する命令は、該命令よりプログラム上で前に配置された同タスクに属する命令に対してデータ依存関係にある。また、コミット命令の直後から始まり、コミット命令で終わる部分を「タスクウィンドウ」と呼ぶものとする。つまり、タスクウィンドウの終端の命令はコミット命令であり、かつ、そのタスクウィンドウにおいて唯一のコミット命令である。

### [0045]

また、本実施形態では、プロセッサ内において、各命令がどのタスクに属するかを識別するために、各命令には、それが属するタスクに固有の「タスク番号」がコンパイラにより付与される。また、各命令がどのタスクウィンドウに属するかを識別するために、各命令には、それが属するタスクウィンドウに固有の「タスクウィンドウ番号」がタスクウィンドウ識別子生成部により付与される。

#### [0046]

図1のプロセッサの主なユニットの概要は次の通りである。

#### [0047]

タスクウィンドウ識別子生成部 6 は、デコードされた命令に対して付与すべき タスクウィンドウ番号を生成するためのユニットで、少なくとも連続する 2 つの タスクウィンドウに対して異なる識別子を付与する。タスクウィンドウ識別子生 成部 6 は例えば最大値が 2 以上のループカウンタで実現できる。

#### [0048]

演算器割当部7は、デコードされた命令をどの実行キューに挿入するかを決定 して、命令を挿入するユニットである。実行キューからの命令実行は、実行キュ ーに命令が挿入された順序で行われる。

#### [0049]

オペランド状態判定部 1 1 は、デコードされた命令が使用するオペランドが使 用可能かどうかを判定するためのユニットである。

[0050]

グローバルレジスタ更新部19は、コミット命令により承認された命令による グローバルレジスタの更新が、1命令ずつ行われるよう制御するためのユニット である。

[0051]

ロードバッファ20は、ロード命令が依存するストア命令がストアバッファに登録されているかどうかを求め、該ストア命令がストアバッファに登録されている場合にはストアバッファの値をロードし、登録されていない場合にはデータキャッシュおよびメモリから値をロードするユニットである。

[0052]

ストアバッファ21は、実行されるストア命令に関する情報 (ストアする値や アドレスなど) を保存しておき、該ストア命令がコミット命令により承認された 後に、保存された情報に基づいて、ストアバッファの登録順にメモリを更新する ユニットである。

[0053]

本実施形態のプロセッサは、概略的には、命令をタスク単位で実行キューに登録し、実行キューからの実行は登録順に行ない、グローバルレジスタやメモリを更新する命令の結果はローカルレジスタやストアバッファに一時保存して、コミット命令により承認された命令の演算結果のみをプロセッサの状態に反映させるものであり、データ依存・制御依存にともなう命令の配置位置の制約をなくすことで並列度を抽出するために必要なバッファのサイズを小さくすることを可能とし、且つ実行可能な命令を命令キューの先頭の命令のみから選び出すことで命令の選択処理時間を短縮してより多くの分岐命令やデータ依存列を越える命令を投機的に実行することができる。

[0054]

次に、図2に、本実施形態のプロセッサにおけるパイプライン処理の流れの一 例を示す。

### [0055]

命令フェッチ部3は、アドレス生成部2により示される命令アドレスをアドレスバス22で指定し、その命令から始まる複数の命令を命令キャッシュまたはメモリから命令フェッチバス23を介してフェッチする(ステップS11)。フェッチされた命令は、命令キューバス24を介して命令キュー4にフェッチ順に挿入される。

### [0056]

命令フェッチ部3は、命令キューが一杯になった場合には命令キューに空きが できるまで次のフェッチを停止する。

### [0057]

アドレス生成部2は、通常は最後にフェッチした命令の次を指すように更新される。ただし、1. ジャンプ命令が承認されたとき、2. 1 cmt命令をフェッチしたときには、アドレス生成部2は各命令が指定するアドレスを指すように更新される。

### [0058]

命令デコード部5は、命令キュー4の先頭から、複数の命令をデコードバス25を介してデコードし、各命令についてその種類と使用するオペランド、消費・生成フラグおよび命令のタスク番号を得る(ステップS12)。さらに、タスクウィンドウ識別子生成部6から各命令のタスクウィンドウ番号を得て(ステップS13)、これらの情報を演算器割当部7に送る。

#### [0059]

演算器割当部7は、命令デコード部から送られた情報を用いて命令を挿入する 実行キューを選択し、実行キューバス26~28を介して挿入する(ステップS 14)。挿入すべき実行キューが一杯の場合には、実行キューに空きができるま で待ち、その間は命令デコード部による命令のデコードを停止させる。また、実 行キューにまだ実行されていないコミット命令が存在している状態で、新たなコ ミット命令をデコードした場合にも同様の処理を行なう。

# [0060]

演算器割当部7は、命令が使用する命令実行ユニットを命令アドレスから得る

。その命令実行ユニットに属する実行キューの中から、命令を挿入する実行キューを選択する方式については、いくつかの実現例が考えられる。

[0061]

例えば、演算器割当部7における実行キューの選択方式としては、図3のように、タスク番号と実行キューのマップを保持するメモリを持たせて、命令のタスク番号に対するマップが存在する場合には、該マップで示される実行キューに命令を挿入し、マップが存在しない場合には命令が使用する命令実行ユニットに属する実行キューの中から空の実行キューを選択して挿入し、タスク番号と実行キューとのマップを生成するものが考えられる。コミット命令によりタスクが承認・否認されると、そのタスクに対するマップは破棄される。

[0062]

命令の実行キューへの割当をコンパイラで行なう場合には、命令デコード部5 はデコードの際に命令を挿入すべき実行キューに関する情報を得る。この場合に は、演算器割当部7はこの情報に従って実行キューを選択して命令を挿入する。

[0063]

図4に実行キューの構成例を示す。この例では、実行キューはリングバッファとして構成されている。実行キューには、1. head、2. tail、3. execute、4. commitの4つのポインタがある。headポインタ、tailポインタはリングバッファに登録されているエントリの先頭と終端を示すポインタである。executeポインタは次に実行すべきエントリを示すポインタで、命令が実行されると次のエントリを指すように移動される。commitポインタは次にグローバルレジスタ・メモリを更新する命令を指すポインタで、更新が完了すると次のグローバルレジスタ・メモリを更新する命令を指すように移動される。

[0064]

実行キューの各エントリは、命令の種類、使用するオペランド、例外情報を記録するフィールドを持つ。承認・否認されていない命令が例外を起こした場合には、その例外に関する情報が対応するフィールドに記録され、例外処理は承認後まで遅らされる。

[0065]

オペランド状態判定部11は実行キュー8~10の先頭の命令が使用するオペランドが使用可能かどうかを判定した(ステップS15)後、オペランドが使用可能で且つその命令を実行する命令実行ユニット(キューの属する命令実行ユニット)に空きがあれば命令を対応する命令バスを介して転送し、オペランドをグローバルレジスタ18およびローカルレジスタ15~17からフェッチした後、命令が実行される(ステップS16)。

[0066]

オペランド状態判定部11は、図5に示すようなレジスタスコアボードにより オペランドが使用可能か否かを判定する。レジスタに生成フラグまたは消費フラ グのついた命令がデコードされると、レジスタスコアボードの該レジスタに対す るvalidビットが0になり、該レジスタの値が更新されるとvalidビッ トが1になる。オペランド状態判定部は、命令が使用する全てのオペランドに関 して、レジスタスコアボードにおけるvalidビットが1であれば命令は実行 可能と判定される。

[0067]

実行可能な命令の一部は、1.命令実行ユニットの数、2.グローバルレジスタのリードポート数、3.データキャッシュのリードポート数、4.ストアバッファのライトポート数、5.ストアバッファのエントリ数、6.ロードバッファのエントリ数といったリソースの制約により実行できない場合がある。オペランド状態判定部11は、実行可能な命令の中から予め定められた規則に従って実行すべき命令を選び、命令実行ユニットに送る。

[0068]

命令選択規則の一例としては、同命令実行ユニットに属する命令の間では最も 古く実行キューに入った命令を優先し、他の命令実行ユニットに属する命令との 間では最も優先度の高い命令実行ユニットに属する命令を優先するという規則が 考えられる。

[0069]

また、命令を挿入する実行キューをコンパイラで指定している場合には、リソ

-スの制約を満たすように命令を実行キューに割り当てることで、所属する命令 実行ユニットの異なる命令間の優先順位を考慮する必要がなくなる。例えば、ストアバッファのライトポートが1つの場合には、ストア命令を特定の命令実行ユニットに属する実行キューにのみ割り当てれば、ストアバッファのライトポート に関するリソース制約を調べる必要はない。

### [0070]

さらに、命令の実行キューへの割当をコンパイラで行なうか否かにかかわらず、投機的なタスクには特定のタスク番号を割り当て、同命令実行ユニットに属する命令の間では、投機的でない命令を投機的な命令に優先して実行するように制御するという命令選択規則も考えられる。この規則を用いると、実行する必要のない命令が投機的に実行されることによる性能低下を防ぐことができる。

### [0071]

命令実行の際に例外が発生した場合には、例外の種類をその命令が存在する実 行キューのエントリに記録し、その時点では例外処理は行なわない。

# [0072]

命令の実行後、その結果はレジスタを出力とする命令の場合にはローカルレジスタに出力され(ステップS20)、メモリを出力とする命令(ストア命令)の場合にはその情報がストアバッファ21に登録される(ステップS21)。

#### [0073]

そして、コミット命令が実行されると、コミット命令は指定された条件に従って一部のタスクを承認し、また一部のタスクを否認する(ステップS19)。

#### [0074]

グローバルレジスタを出力とする命令が承認されると、その命令の結果を保持するローカルレジスタの値と、グローバルレジスタ番号がグローバルレジスタ更新部19に送られる。レジスタ更新部のライトポート数を超える命令が承認された場合には、予め定めた優先順位に従って登録する。この優先順位としては、例えば前記のオペランド状態判定部における優先順位がある。レジスタ更新部は登録された情報を用いて、パイプラインとは独立に1サイクルに一定数(グローバルレジスタのライトポート数)のグローバルレジスタの値を登録された順序で更

新する。

[0075]

各命令実行ユニットは2つのローカルレジスタセットを持っており、タスクウィンドウ番号が偶数のタスクウィンドウに属する命令と、奇数のタスクウィンドウに属する命令は異なるローカルレジスタセットを使用する。

[0076]

一方、メモリを出力とする命令が承認されると、ストアバッファは登録された 情報を用いて、パイプラインとは独立に一定数 (データキャッシュのライトポー ト数) のメモリの値を登録された順序で更新する。

[0077]

例外の種類が記録されたエントリに存在する命令が承認されると、例外の種類 に従った例外処理が行なわれる。

[0078]

ローカルレジスタを出力とする命令や出力を持たない命令は、承認・否認後に何も処理を行なわないまま実行キューから消去される。実行キューからの消去は、単に実行キューの h e a d ポインタを移動することにより実現される。

[0079]

次に、図6に、本実施形態のプロセッサにおいてロード命令、ストア命令を実 行した際の動作の一例を示す。

[0080]

ストア命令は、1. ストアバッファが一杯の場合、2. タスクウィンドウ番号が等しいストア命令がストアバッファに存在し、かつ前記ストア命令とストアバッファのストア命令の属するタスクウィンドウが異なる場合には実行されない。

[0081]

まず、ストア命令は命令実行ユニットに送られると、ストアするメモリアドレスが計算される(ステップS11)。次に、命令の種類が判定されたのち(ステップS12)、ストア命令に関する情報がストアバッファ21に登録される(ステップS13)。

[0082]

図7にストアバッファの構成例を示す。

[0083]

この構成例では、ストアバッファはリングバッファとして構成されている。ストアバッファの各エントリは、1. ストアするアドレス、2. ストアする値、3. ストア幅(ワードデータ、バイトデータなど)、4. ストア命令が属するタスクウィンドウ番号、5. commit ビット、6. clear ビットを持つ。

[0084]

ストア命令がストアバッファに登録されると、そのエントリに上記要素がセットされる。commitビット、clearビットはOにセットされる。

[0085]

コミット命令によりストア命令が承認されると(ステップS14)、該ストア命令が登録されているストアバッファのエントリのcommitビットが1にセットされる(ステップS16)。ストア命令が否認されると(ステップS14)、該ストア命令が登録されているストアバッファのエントリのclearビットが1にセットされる(ステップS15)。

[0086]

ストアバッファの先頭エントリのcommitビットが1になったら、そのエントリの情報を用いてメモリを更新し、ストアバッファの先頭を示すheadポインタを次のエントリに移動する(ステップS18)。一方、先頭エントリのclearビットが1になった場合には、単にheadポインタを次のエントリに移動するだけで、メモリの更新は行なわない(ステップS17)。

[0087]

次に、ロード命令の実行例について説明する。

[0088]

オペランド状態判定部11は、ロード命令に関しては前記命令が実行可能となる条件に加えて、「前のタスクウィンドウに存在する全てのストアは実行済である (ストアバッファへの登録が完了している) か、コミット命令により否認されている」という条件を満たすときに、ロード命令は実行可能であると判定する。

[0089]

ロード命令が命令実行ユニットに送られると、ロードするメモリアドレスが計算される(ステップS11)。次に、命令の種類が判定されたのち(ステップS12)、ストアバッファが参照され、ロードがメモリ依存するストア命令がストアバッファに登録されているかが調べられる(ステップS19)。

[0090]

ロード命令がストアバッファに登録されているストア命令と依存関係を持つか どうかは、予め定められた基準により判断する。コンパイラはロード命令とスト ア命令の依存関係がこの基準に従って表現されるように命令スケジュールを行な う。

[0.091]

ロードとストア命令の依存関係を示す基準の一例としては、ロード命令は、ロードする領域を更新するストア命令のうち、1. 該ロード命令が属するタスクウィンドウより前のタスクウィンドウに属するストア命令、または、2. 該ロード命令と同じタスクに属し、該ロード命令より前に配置されているストア命令のいずれかの条件を満たすストア命令と依存するという基準が考えられる。

[0092]

ロード命令と依存するストア命令がストアバッファに存在した場合には、最も新しくストアバッファに登録されたストア命令がストアする値(ストア幅がロード幅より大きい場合には、ストアする値の一部)をロード命令の出力として用いる(ステップS21)。一方、ロード命令と依存するストア命令がストアバッファに存在しない場合には、データキャッシュを参照する(ステップS22)。

[0093]

ロードする領域がデータキャッシュにヒットした場合には(ステップS23)、キャッシュの値をロードしてロード命令は完了する(ステップS24)。一方、データキャッシュミスやページフォルト例外が生じたロード命令は、ロードバッファ20に登録される(ステップS25)。

[0094]

ロードバッファの構成例を図8に示す。

[0095]

この構成例では、ロードバッファはリングバッファとして構成され、ロードバッファの各エントリは、1. ロードするアドレスの下位数ピットを0にマスクしたアドレス(キャッシュアドレスと呼ぶ)、2. 複数のレジスタ番号からなるフィールド(レジスタフィールド)、3. validフィールド、4. refillビットを持つ。登録するレジスタ番号の数はデータキャッシュの1ラインに含まれるワード数で、マスクのビット数は2のn乗がキャッシュラインのバイト数に等しくなるようなnである。図8は、キャッシュラインが8ワードの場合を示している。

[0096]

レジスタフィールドはキャッシュラインのワードがMSBから順にレジスタフィールドに示されるレジスタにロードされることを示し、validフィールドはMSBから順に、レジスタフィールドに示されるレジスタ番号が有効であるか否かを示す(1なら有効)。無効なレジスタに対するロードは行われない。

[0097]

ロードバッファへのロード命令の登録手順の例を図9に示す。

[0098]

まず、ロード命令のキャッシュアドレスと等しいアドレスが登録されているエントリがロードバッファに存在するか否かが調べられ(ステップS11,12)、存在する場合には最も新しいエントリのvalidフィールドを用いて、ロード命令の出力レジスタを登録するレジスタフィールドが有効か否かを調べる(ステップS16)。

[0099]

ロード命令のキャッシュアドレスと等しいアドレスを持つエントリがない場合、または、エントリはあるが該ロード命令の出力レジスタをレジスタフィールドに登録できない場合(登録するレジスタフィールドが既に有効である場合、または該エントリのrefillビットが1の場合)には、ロードバッファに新たなエントリを作ってロード命令を登録する(ステップS15)。ロード命令の登録の際には、refillビットは0に設定される。

[0100]

一方、該ロード命令のキャッシュアドレスを持つロードバッファのエントリが存在し、且つ該ロード命令の出力レジスタを登録する該エントリのフィールドが有効でない場合には、該エントリの対応するレジスタフィールドに該ロード命令の出力レジスタ番号を登録し、該エントリの対応する v a l i d フィールドに1を立てる(ステップS14)。

### [0101]

ロードバッファの先頭エントリにあるvalidフィールドのいずれかのビットに1が立っていて、且つ該エントリのrefillビットが0の場合には、該エントリのキャッシュアドレスの内容がメモリから読み出される。読み出しが完了したら、該エントリのrefillビットを1とする。

# [0102]

該エントリのrefillビットが1になったら、レジスタフィールドに登録 された有効なレジスタへのロードを、R1から順に行なう。有効な全てのレジス タへの値のロードが完了したら、ロードバッファのheadポインタを次のエン トリに移動する。

### [0103]

本実施形態では、ロード命令の種類として、1. 実行可能になり次第実行できるロードと、2. 実行可能になってもコミット命令により承認されるまでは実行できないロード(delayed-load)の2種類を持たせる実施形態も考えられる。delayed-loadは該コミット命令の次のタスクウィンドウに属するとすることで、ロード命令とストア命令の依存関係(メモリ依存関係)の表現に伴う命令配置の制約を軽減することができる。

#### [0104]

つまり、メモリ依存関係により特定のタスクウィンドウに配置せざるを得ないロード命令は、delayed-loadに変更することで該タスクウィンドウより前のタスクウィンドウに配置することが可能となる。

#### [0105]

delayed-loadには、コード密度の向上や命令のプリフェッチによる命令キャッシュミスペナルティの緩和といった効果がある。

[0106]

また、本実施形態では、ロード命令の種類として、依存性が曖昧なストア命令とは依存関係を持たないとするロード(MD-load)を持たせる実施形態も考えられる。MD-loadを実行する際にはストアバッファの参照は行なわれず、直接データキャッシュやメモリの内容がロードされる。また、MD-loadに関する情報が、メモリコンフリクトバッファに登録される。

[0107]

図10にメモリコンフリクトバッファの構成例を示す。

[0108]

この構成例では、メモリコンフリクトバッファのエントリは1. MD-loadのタスク番号、2. MD-loadがロードするアドレス、3. ロード幅(ワード、バイトなど)、4. conflictビット、5. validビットを持つ。MD-loadの登録の際には、conflictビットは0、validビットは1にセットされる。

[0109]

オペランド状態判定部 1 1 は、ストア命令が実行可能か否かを判定する際に、 該ストア命令が属するタスクウィンドウより前のタスクウィンドウに属するMD - 1 o a d 命令が、実行されていない、且つコミット命令により承認・否認が行 なわれていない場合には、該ストア命令を実行可能としない。

[0110]

ストア命令が命令実行ユニットに転送され、ストアするアドレスが計算されると、コンフリクトバッファが探索されて、ストアアドレスと重なりのある領域をロードするMD-load命令が求められ、このようなMD-load命令が存在する場合には、該MD-load命令が登録されたエントリのconflictビットが1にセットされる。

[0111]

MD-load命令は、コミット命令により承認・否認される前に、ccmt 命令により、依存関係がないと見なしたストア命令との間に実際には依存関係が あったかどうかを確認する必要がある。コンパイラは、MD-load命令を含 むタスクが承認される前に、必ず c c m t 命令が実行されるように命令スケジュールを行なう必要がある。

# [0112]

ccmt命令はコミット命令の一種であり、ソースオペランドとしてタスク番号を指定する。ccmt命令は、コンフリクトバッファから指定されたタスク番号を持つ有効な(つまり、validビットが1である)エントリを求めてvalidビットを0とする。また、該エントリのconflictビットを調べて、conflictビットが1の場合には、指定されたタスクを先頭から再実行する。

### [0113]

タスクの再実行によりプロセッサの正しい状態が得られることを保証するために、コンパイラは、MD-load命令を含むタスクが使用する入力オペランドが、MD-load命令の属するタスクウィンドウ内で使い回されないようにレジスタ割当をする必要がある。また、一つのタスクには高々一つのMD-load命令が含まれるようにタスク割当をしなければならない。

# [0114]

以上のような機構により、依存性が曖昧なストア命令を越えてロード命令を前 に移動することが可能となる。

#### [0115]

次に、本実施形態における、命令間の依存関係を表現する方法の一例を示す。

#### [0116]

まず、この表現方法の例では、命令間の制御依存関係は、1. cmt命令、2. bcmt命令、3. lcmt命令の3種類のコミット命令で表現される。

### [0117]

cmt命令は、条件式、承認するタスクの集合、条件式が満たされる際に否認するタスクの集合を入力とする。

#### [0118]

図11に条件分岐命令を用いた従来のプログラムコードの例を示す。 b n e 命令は、2つの入力オペランドの値が異なるときに、指定のアドレスに分岐する命

令である。

### [0119]

図11のプログラムコードを、cmt命令を用いて表現した例が図12である。各命令が属するタスク番号は命令の前に付加されている。cmt命令が実行されると、指定された条件式(図12の例では\$3の値と\$6の値は等しくない)が調べられる。条件式が満たされない場合には、承認するタスクの集合(図12の例ではタスク1,2,3)に属するタスクが承認される。条件式が満たされない場合には、承認するタスクの集合に属するタスクのうち、否認するタスクの集合(図12の例ではタスク2,3)に属さないタスクが承認され、否認するタスクの集合に属するタスクは否認される。

# [0120]

否認されたタスクに属する命令の実行結果はプロセッサの状態に反映されないため、\$3と\$6が等しくない場合には、図11におけるbne命令の次の命令から、ラベル\$L48の直前までの命令は実行されない。このようにして、cmt命令により条件分岐が実現される。

### [0121]

bcmt命令は、条件式、承認するタスクの集合、条件式が満たされる際に否認するタスクの集合、条件式が満たされる際に分岐する分岐アドレスを入力とする。

#### [0122]

図13に条件分岐命令を用いた従来のプログラムコードを示し、該プログラム コードを、bcmt命令を用いて表現した本実施形態のプログラムコード例を図 14に示す。

### [0123]

本実施形態においては、従来のプログラムコードにおいて、条件分岐命令で分岐が生じない場合に実行される全ての命令が、該条件分岐命令に対応するコミット命令より前に配置される場合には、条件分岐はcmt命令により表現する。一方、前記全ての命令の一部を該コミット命令より前に配置しない場合にはbcmt命令を用いて、条件が満たされた場合には分岐をすることで該コミット命令よ

り前に配置しなかった命令を実行しないようにする。

### [0124]

bcmt命令が用いられる例としては、1. 依存性の表現による制約によりコミット命令を越えて命令を前に移動できない場合や、2. コミット命令を越える命令移動を行わないほうが効率よく実行できる場合などが挙げられる。

### [0125]

図14の例は、j命令(直接ジャンプ命令)がコミット命令を越えて移動できない実施形態の例である。j命令によるプログラムカウンタの変更は承認後に行ない、承認されるまではプログラムカウンタを1ずつ増大させるような実施形態では、j命令をコミット命令より前に移動することが可能である。

#### [0126]

1 cmt命令は条件式、ループを構成するタスク番号の集合、1回目のループでのみ承認するタスク番号の集合、および条件式が満たされる際に分岐する分岐アドレスを入力とする。1 cmt命令はループ構造で現れる制御依存性を表現するのに用いられる。

# [0127]

図15に条件分岐命令を用いた従来のプログラムコードを示し、該プログラム コードを、1cmt命令を用いて表現した本実施形態のプログラムコード例を図 16に示す。

#### [0128]

1 cmt命令が最初に実行されると、まずループを構成するタスク(図16では3と4)、および1回目のループでのみ承認するタスク(図16では1と2)が承認される。

### [0129]

1 cmt命令の条件式が成立する場合には、該1 cmt命令で指定された分岐 アドレス (ループの先頭) へ分岐する。このとき、ループを構成するタスクのタ スク番号は可能な限り未使用のタスク番号にリネーミングされる。タスク番号が 変更されると、コンパイラがタスクを実行キューに割り当てる実施形態 (タスク 番号と実行キューが静的に対応している実施形態) においても、タスクが挿入さ れる実行キューは1回前のループでタスクが挿入された実行キューとは異なる。

[0130]

2回目以降に1cmt命令が実行される場合には、ループを構成するタスクはタスク番号のリネーミング情報を用いて承認され(例えば、図16で3と4がそれぞれ5と6にリネーミングされていたら、5と6が承認される)、1回目のループでのみ承認するタスクは否認される。

[0131]

タスク番号のリネーミング情報はループを1回実行するごとに更新され、1 c m t 命令の条件式が成立しなくなった時点で、該リネーミング情報は破棄される

[0132]

一般的なスーパースカラプロセッサではループを繰り返し実行する際の命令並列度を向上させるために、命令が出力するレジスタをダイナミックに変更するレジスタリネーミング機構を持っている。本実施形態では、命令が使用するローカルレジスタのセットは、該命令が属するタスクウィンドウによって分けられているため、レジスタリネーミング機構なしにループ実行時の命令並列度を向上させることが可能である。

[0133]

次に、本実施形態においてデータ依存性がどのように表現されるかについて説明する。

[0134]

ある命令(命令Bとする)が別の命令(命令Aとする)に対してデータ依存関係を持つ(命令Aの出力結果を命令Bが使用する)場合、命令Aを命令Bより前に配置したいときには、命令Aの出力オペランドに生成フラグを付与する(図16では命令の出力オペランドにPを付与することで示している)。命令Bを命令Aより前に配置したいときには、命令Bの入力オペランドのうち、命令Aの結果に対応する方の入力オペランドに消費フラグを付与する。

[0135]

本発明の実施形態としては、前記命令Bが使用する前記命令Aの結果が得られ

る前に、命令Bの演算結果を予測して実行する(value predictionと呼ぶ)機構を備える形態も考えられる。前記命令Aの結果を予測するための機構としては、例えばlast outcome-based value predictorなどがある("Highly Accurate Data Value Prediction using Hybrid Predictors", IEEE Micro '97)。

[0136]

本実施形態は、value predictionを行なうためのコミット命令として、dcmt命令を備える。dcmt命令は、レジスタ番号と、タスク番号を入力とする。

[0137]

図17にvalue predictionを行なうためにコンパイラが生成するプログラムコードの例を示す。

[0138]

コンパイラは、value predictionを行ないたい命令がタスク の先頭になるようにタスク割当を行ない、該タスクがvalue predictionを行なうタスクであることをプログラムコード上に明示する(図17では命令ニーモニックの前にd.をつけて表現している)。また、該タスクが承認 される前に、該命令の出力オペランドとそのタスク番号を入力とするdcmt命令が実行されるように命令スケジュールを行なう。

[0139]

予測した値が正しかったかどうかを判定するために、該命令と同じ命令を、value predictionを行なわないタスクにも割り当てる。

[0140]

オペランド状態判定部は、value predictionを行なうタスク の先頭命令に対しては入力オペランドが使用可能か否かは判定せずに、該命令を 出力結果予測部に転送する。そして、出力結果予測部から得られた値を該命令の 結果としローカルレジスタに出力する。

[0141]

dcmt命令を実行するときには、入力レジスタの値が予測された値と等しいかどうかが判定され、等しい場合には入力タスクが承認される。等しくない場合には、前記value predictionを行なうタスクを、予測を行なわないタスクとして再実行する。このときには、dcmt命令は処理を行なわない

### [0142]

また、本実施形態においては、サブルーチン間の依存関係はjcmt命令とrcmt命令を用いて表現される。

### [0143]

jcmt命令は呼び出すサブルーチンのアドレス、およびタスク番号の集合を 入力とする。

### [0144]

jcmt命令は、サブルーチンから復帰した後に実行を開始するアドレスを結果として出力する。また、入力として与えられたタスクを承認する。そして、指定されたサブルーチンに制御を移す。

### [0145]

rcmt命令はレジスタ番号とタスク番号の集合を入力とする。rcmt命令が実行されると、指定されたタスクが承認される。そして、指定されたレジスタのアドレスに制御を移す。

#### [0146]

さて、以下では、本実施形態のプロセッサにおいて、命令が実行される際に各 ユニットがどのように動作するかについて、およびいくつかのユニットの構成も しくは機能について、より詳しく説明する。

#### [0147]

以下の説明において、各パイプラインステージで行なわれる処理を次のように 定義する。

- ・フェッチステージ (Fステージ) …メモリから命令をフェッチする
- ・デコードステージ (Dステージ) …フェッチした命令をデコードし、実行キューに挿入する

- ・実行ステージ(Eステージ)…命令実行ユニットを用いた演算を行なう
- ・メモリステージ (Mステージ) …キャッシュからのデータの読み出し、および ストアバッファへの登録を行なう
- ・ライトバックステージ(Wステージ)…演算結果をローカルレジスタに書くまた、以下では、「命令i」は命令番号iの命令を表すこととする。

[0148]

図18に、本プロセッサで実行するプログラムの一例を示す。

[0149]

以下、図18のプログラムを実行対象とした場合を例にとってサイクルの流れ に沿って説明する。

[0150]

なお、説明を簡明にするため、図18のプログラムの開始時点において、パイプラインで処理中の命令は存在しないものとする。

[0151]

まず、サイクル1に、Fステージで命令フェッチ部3は命令1~3(命令番号は命令の末尾に示している)を順にフェッチして命令キュー4に挿入する。本発明は同時フェッチ数がいくつのプロセッサであっても適用可能であるが、本実施 形態では同時フェッチ数を3としている。

[0152]

次に、サイクル2に、Fステージで命令フェッチ部3は命令4~6をフェッチ して命令キュー4に挿入する。

[0153]

一方、サイクル2にDステージでは、命令デコード部5は命令キュー4にある命令1~3をデコードし、命令の種類と使用するオペランド、タスク番号および生成・消費フラグを得る。また、各命令はタスクウィンドウ識別子生成部6からタスクウィンドウ番号を得る。

[0154]

演算器割当部7は命令デコード部5から送られたタスクウィンドウ番号から、 命令1~3をそれぞれ実行キュー8、9、10に挿入する。また、オペランドと 生成・消費フラグの情報から、グローバルレジスタ番号5および命令実行ユニット12のローカルレジスタ番号5、命令実行ユニット13のローカルレジスタ番号1を使用不可とする。

### [0155]

次に、サイクル3に、オペランド状態判定部11は各実行キューの先頭の命令が実行可能か否かを判定し、命令1~3は実行可能なので対応する命令実行ユニットに転送されて、命令が実行される。命令1、命令2の出力はローカルレジスタなので、これらのレジスタは命令実行の完了後、使用可になる。

# [0156]

一方、サイクル3にDステージでは、命令デコード部5は、命令4~6をデコードして、実行キューへの挿入を行なう。命令4~6が使用するオペランドには生成・消費フラグが付与されていないので、特定のレジスタを使用不可とする処理は行なわれない。Fステージでは、命令フェッチ部3は命令7~9をフェッチする。以後のサイクルにおいても、特に断りがない場合にはFステージ、Dステージで同様の処理が行なわれているものとする。

### [0157]

サイクル4にEステージで命令4が実行キューに送られ、ロードアドレスの計算が行なわれる。命令4が使用するローカルレジスタ5番の値は、命令1の演算結果をバイパスすることで求められる。

#### [0158]

サイクル5に、Wステージで命令1、命令2の結果がローカルレジスタに出力 される。命令3の結果も、グローバルレジスタに出力する結果を退避するための ローカルレジスタに出力される。

### [0159]

一方、サイクル5にMステージでは命令4のロードアドレスを用いてデータキャッシュが参照される。ここでキャッシュミスが生じたとすると、命令4はロードバッファ20に登録される。

### [0160]

命令7はローカルレジスタ1番が使用不可なためサイクル5では実行されない

[0161]

サイクル6にロードバッファでは命令4のロードアドレスに対するデータキャッシュのrefill処理が開始される。このとき、replaceされるデータキャッシュのエントリはinvalidateされる。

[0162]

一方、サイクル6にEステージでは命令11、命令12が実行されロードアドレスの計算が行なわれる。命令10はローカルレジスタ2番が使用できないため 実行されない。

[0163]

サイクル6にFステージで命令16~18がフェッチされる。命令14のコミット命令がまだ実行されていない状態で新たなコミット命令(命令18)をフェッチしたので、命令フェッチ部3は命令14が実行キューからなくなるまでは命令フェッチを停止する。

[0164]

サイクル7にMステージでは命令11と命令12のロードアドレスを用いてデータキャッシュが参照される。命令12はキャッシュヒットしたとすると、キャッシュから値が読み出される。一方、命令11はキャッシュミスし、命令11のロードアドレスと命令4のロードアドレスとが同キャッシュラインで異なるアドレスとすると、命令11は命令4のロードバッファエントリにマージされる。

[0165]

一方、サイクル7にEステージでは命令15が実行され、命令13、命令14 は実行されない。

[0166]

サイクル8にWステージで命令12により命令実行ユニット12のローカルレジスタ3番の値が更新される。

[0.167]

一方、サイクル8にDステージでは命令19~21がデコードされる。命令1 4のコミット命令がまだ実行されていない状態で新たなコミット命令(命令21 )をデコードしたので、命令19~21の実行キューへの挿入は命令14の実行 まで待たされ、以後の命令のデコードも停止される。

[0168]

サイクル9にWステージでは命令15の結果がグローバルレジスタに出力する 結果を退避するためのローカルレジスタに書かれる。以後のサイクルにおいても

特に断らない限りWステージでは同様の処理が行なわれているものとする。

[0169]

サイクル15にロードバッファでrefillが完了し、命令4の結果がローカルレジスタに書かれたとする。サイクル10~15の間にはFステージでの命令フェッチだけが行なわれており、他のパイプラインステージでは処理が行なわれていない。

[0170]

サイクル16にEステージで命令7が実行され、ロードバッファでは命令11 がロードした結果がローカルレジスタに書かれる。

[0171]

サイクル17にEステージで命令10と命令14が実行される。命令14は条件に従ってタスクの承認・否認を行なう。条件が成立したと仮定するとタスク1#1、タスク2#1、タスク2#2、タスク3#1が承認され、タスク1#3、タスク1#4、タスク3#3、タスク3#4が否認される。否認されたタスクは実行キューから消去される。承認されたタスクについては、タスクの先頭からグローバルレジスタに出力する命令の直前までの命令が完了済(ローカルレジスタの更新が完了している)であれば消去される。この例では、命令1、命令2、命令4、命令11、命令14が消去される。

[0172]

一方、命令14のコミット命令が実行されたため、停止されていた命令デコー ド部5の処理が再開され、命令19~21が実行キューに挿入される。

[0173]

サイクル18にWステージで、命令7の結果をレジスタに出力する。命令7は

既に承認されているので結果はグローバルレジスタに直接書かれて、命令7は実 行キューから消去される。

#### [0174]

一方、サイクル18にEステージでは命令21が実行される。命令21が承認するタスクのうち、タスク3#1を除くものは全て消去されているので、ここではタスク3#1だけが承認され、命令21は実行キューから消去される。ループ条件が満たされているので他の処理は行なわれない。

### [0175]

また、サイクル18にDステージでは、命令10~12が実行キューに挿入される。ループ実行時には並列度が向上するようにタスク番号のリネーミングが行なわれるが、この例では前回のループ時に実行された命令は既に実行キューには存在しないので、タスク番号のリネーミングは行なわれない。

### [0176]

サイクル19に命令10~12が実行され、サイクル20に命令13~15が 実行される。命令14の条件が満たされなかったとすると、タスク1#3、タスク1#4、タスク2#2、タスク3#3、タスク3#4が承認される。

#### [0177]

サイクル21にWステージで命令10によりグローバルレジスタ6番が更新される。Eステージでは命令16が実行される。

#### [0178]

サイクル22に命令16がストアバッファに登録される。命令16は既に承認されているので、ストアバッファエントリのcommitビットは1にセットされる。

### [0179]

一方、サイクル22にWステージでは命令15によりグローバルレジスタ5番が0にセットされる。Eステージでは命令21が実行され、タスク3#1が承認される。ここで、ループ条件が満たされなかったとすると、命令キュー、および承認・否認されていない実行キュー中のタスクは消去される。そして、アドレス生成部2は命令22を指すように更新される。

[0180]

サイクル23に、ストアバッファに登録された命令16によりメモリの更新が 行なわれる。一方、Fステージでは命令22がフェッチされる。

[0181]

サイクル24に命令22がデコードされ、サイクル25に命令22が実行される。命令22によりタスク1#1(命令22)が承認され、アドレス生成部2は グローバルレジスタ31番で示されるアドレスを指すように更新される。

[0182]

図18の例において、従来のプロセッサで命令10を命令14より前に配置する場合には、命令10が誤って更新したレジスタを元の値に戻すための補正コードが必要になる。よって、命令10の投機的実行が誤りだった場合には大きなペナルティが生じる。

[0183]

一方、本実施形態では補正コードを発行することなく、命令10を命令14より前に配置できる。命令の投機的な移動が補正コードなしに行なえるために、広範囲での命令のout-of-order実行が単純なハードウェアで実現できる。

[0184]

また、本実施形態では、ループ構造の前にある命令列をループの内部に含めることも可能である(図18では行っていない)。このような移動により、ループの投機的実行が従来の方式より広い範囲で可能となる。また、VLIW形式の実現においては、命令の密度が向上するという効果もある。

[0185]

次に、本実施形態で実行可能なプログラムコードを生成する、コンパイラのコード生成方式について説明する。

[0186]

本発明のコンパイラは、本実施形態で実行可能なプログラムコードを生成する ために、従来のコンパイラが行なう処理に加えて、1. 命令のタスク割当及びタ スクスケジューリング、2. コミット命令を用いた依存関係の表現、3. タスク 間通信を考慮したレジスタ割当および生成・消費フラグの付加といった処理を行 なう。以下、これらの処理について説明する。

[0187]

まず、命令のタスク割当及びタスクスケジューリングについて説明する。

[0188]

一つのタスクウィンドウに存在できるタスクの最大数は、本実施形態のプロセッサが備える実行キューの数となる。本発明のコンパイラは、サブルーチン単位で各命令がこの条件を満たすよう個々のタスクに割り当てる。

[0189]

命令のタスク割当においては、まず命令間のデータ依存関係を求めて各命令を 複数のデータ依存列に分割する。データ依存関係の解析は、従来のコンパイル手 法と同様にして行なえる。

[0190]

データ依存列への分割において、図19のようにデータ依存関係に分岐が存在 する場合には、いずれか一方の命令をデータ依存関係のある命令(図19では命 令1)と同じデータ依存列に割り当て、もう一方の命令は別のデータ依存列に割 り当てる。また、図20のようにデータ依存関係に合流が存在する場合には、合 流先の命令(図20では命令3)を、データ依存関係にあるいずれか一方のデー タ依存列に含める。

[0191]

次に、データ依存列の中から投機的に実行するデータ依存列を選んで、そのデータ依存列を投機的に前方へ移動する。

[0192]

データ依存列の投機的移動においては、以下の条件を満たす必要がある。

- 1. 投機的に移動するデータ依存列の長さは実行キューのサイズ以下である
- 2. プロセッサの任意の状態において、投機的に実行している(つまり、コミット命令により承認・否認されていない)データ依存列の最大数は、予め定められた数(実行キューの数より小さい任意数)以下である
- 3. 条件分岐命令間の順序関係は変わらない

4. 投機的に移動するデータ依存列に含まれる命令Aが依存する結果が条件により異なる場合、命令Aの実行時点で命令Aがどの結果を利用すべきは確定している(命令Aが依存する全ての命令は承認・否認されている)

前記1. の条件を満たすよう、投機的に移動したいデータ依存列の長さが実行 キューのサイズを超える場合には、該データ依存列を長さが実行キューのサイズ より小さい複数のデータ依存列に分割する。

### [0193]

ループに含まれない命令に関しては、サブルーチンの先頭から該命令に到達し得る制御パスの種類は有限である。よって、このような命令の実行している状態に関しては、投機的なデータ依存列が最大となる制御パスで前記2.が保証されるように命令を移動する。また、ループを構成する基本ブロック内には命令を投機的に移動しないという制約を課すことで、ループに含まれる命令を実行している状態においても前記2.は保証される。

### [0194]

条件分岐命令を含むデータ依存列を、別の条件分岐命令を越えて移動したい場合には、該データ依存列を条件分岐命令が含まれる部分と含まれない部分に分割し、条件分岐命令を含まない部分のみを移動することで前記3. を保証する。同様に、前記4. を満たさない位置にデータ依存列を移動したい場合には、そのデータ依存列のうち前記4. を満たす部分のデータ依存列だけを移動する。

### [0195]

最後に、各基本ブロックに存在するデータ依存列をタスクに割り当てる。投機的なデータ依存列はそれぞれ異なるタスクに割り当て、残されたタスクに投機的でないデータ依存列を割り当てる。一つのタスクに含まれる命令数が実行キューのサイズを超える場合(投機的でないデータ依存列を割り当てたタスクに限られる)には、実行キューが一杯になるまでに無条件コミット命令(条件なしでタスクを承認する命令)が実行されるよう、タスクの命令列に無条件コミット命令を挿入する。

### [0196]

以上が本コンパイラによる命令のタスク割当及びタスクスケジューリングに関

する説明である。なお、投機的でないタスクを投機的なタスクより優先させる実施形態においては、タスクが投機的か否かを判別できるように、予め投機的なタスクのタスク番号を定めておき、コンパイラは投機的なデータ依存列は前記タスク番号のタスクに割り当てるようにする。

[0197]

次に、コミット命令を用いた依存関係の表現方法について説明する。

[0198]

本実施形態におけるコミット命令と、従来のプロセッサが備える命令の間には 以下のような対応関係がある。本コンパイラは、この対応関係に従って、従来の 命令をコミット命令に変換することで依存関係を表現する。

[0199]

一般的な条件分岐命令には b c m t 命令が対応する。 b c m t 命令が分岐する 基本ブロックは変換前の条件分岐命令が分岐する基本ブロックと等しいが、分岐 先の基本ブロックに存在する命令の一部は前方へ投機的に移動されている場合も ある。

[0200]

bcmt命令が承認するタスク群には、そのbcmt命令の実行時点では投機的でない未承認タスク群、及び否認するタスク群を指定する。また、bcmt命令が否認するタスク群としては、そのbcmt命令の実行時点で未否認である投機的なタスク群のうち、該bcmt命令の条件が成立した際には到達し得ない制御パスに存在していた命令が割り当てられたタスク群を指定する。

[0201]

タスクスケジューリングが完了した時点で、分岐条件が満たされない場合にの み実行される命令群が全て前記条件分岐命令より前に配置されている場合には、 前記条件分岐命令はcmt命令に対応する。cmt命令が承認・否認するタスク 群の指定はbcmt命令の場合と同様である。

[0202]

ループの繰り返しのために使用される条件分岐命令には1cmt命令が対応する。1cmt命令の分岐先は変換前の条件分岐命令の分岐先と等しい。1cmt

命令の1回目の実行時点では投機的でない未承認タスク群のうち、ループを構成 しないタスク群を1回目のループ実行時にのみ承認するタスクに指定し、残りの タスク群を、ループを構成するタスクとして指定する。

[0203]

サブルーチンコール命令にはjcmt命令が対応し、サブルーチンリターン命令にはrcmt命令が対応する。jcmt命令、rcmt命令が承認するタスクとしてはbcmt命令と同様の指定を行なう。

[0204]

従来のプロセッサにおけるcheck命令("Memory Conflict Buffer for Achieving Memory Disambiguation in Compile-Time Code Schedule"、米国特許5694577)に対応するのがccmt命令である。

[0205]

dcmt命令はvalue predictionを行なう命令を含むタスクの最後に挿入し、予測を行なった命令の出力レジスタと該タスクを入力オペランドとして指定する。

[0206]

最後にタスク間通信を考慮したレジスタ割当及び生成・消費フラグの付加について説明する。

[0207]

タスクスケジューリングとコミット命令の発行が行なわれた後で、タスクウィンドウ単位で命令スケジューリングが行なわれる。命令スケジューリングにおいては、同タスクに属する命令の順序関係は変えてはならないが、他のタスクとの間の順序関係は自由に変えてよい。

[0208]

異なるタスクに属する命令間にデータ依存関係が存在する場合には、その配置 順序に従って命令に生成・消費フラグを付加する。データを生成する命令が前に 配置されている場合には、その命令の出力オペランドに生成フラグが付加される 。一方、データを消費する命令が先に配置されている場合には、その命令の入力 オペランドに消費フラグが付加される。

[0209]

次に、スケジュールされた命令に対して、レジスタ割当を行なう。

[0210]

本実施形態において、グローバルレジスタを使用する必要があるのは、1.ある命令が入力として用いる値を生成するタスクが複数存在する場合、2.あるタスクに属する命令の演算結果を複数のローカルレジスタセットに書く必要がある場合、3.サブルーチン間のインタフェースにレジスタを使用する必要がある場合である。グローバルレジスタの割当については、従来のコンパイラの手法が適用できる。

[0211]

上記の場合以外では、本コンパイラはローカルレジスタを割り当てる。ローカルレジスタの割当は、各ローカルレジスタを読み出せるタスク群ごとに行なうことを除けば、基本的には従来のコンパイラと同様の手法が適用できる。ただし、ローカルレジスタ割当の対象とならないタスクの命令によりローカルレジスタが更新される場合には、該ローカルレジスタを入力とする命令の入力オペランドに対するレジスタ割当が行なわれることになる。

[0212]

また、ローカルレジスタの生存区間は、そのローカルレジスタを更新する命令が属するタスクウィンドウの先頭から、そのローカルレジスタを使用する命令が属するタスクウィンドウの、次のタスクウィンドウの終端までと考える。

[0213]

本実施形態におけるレジスタ表現の一例としては、ローカルレジスタとグローバルレジスタに対して異なるレジスタ番号を用いる表現法が考えられる。異なるローカルレジスタセットに対してはレジスタ番号を重複して用い、結果をローカルレジスタに出力する命令に関しては、更新するローカルレジスタセットの番号を付加して表現する。

[0214]

さて、以下では、図21の記号レジスタで記述されたプログラムコードに対し

て、本方式に基づきコード生成を行なった際の動作について説明する。この例は タスクの実行キューへの割当をコンパイラで行なう実施形態を対象としているた め、図21のプログラムコードは命令の配置アドレスにより、その命令が使用す る演算ユニットが決まるVLIW方式で表現されている。

### [0215]

この例では、実施形態として命令実行ユニットが3、実行キューが各命令実行 ユニットごとに4つずつの計12、各実行ユニットのサイズは8としている。

### [0216]

まず、本発明のコンパイラは、与えられたコードをデータ依存列に分割する。 図21のプログラムコードは、図22のように11のデータ依存列に分割される

### [0217]

次に、投機的に移動するデータ依存列を選択して移動し、全体のコード長が最短になるようにスケジュールする。この例では、データ依存列4,5,7,8,10が選択されたものとする。その結果、図23のようなプログラムコードが得られる。

### [0218]

最後に、各データ依存列にタスク番号を割り当てると図24のようになる。図24では命令が使用する演算ユニットは該命令のアドレスで決定し、命令ニーモニックの前に付加された番号1~4により演算ユニットで処理されるタスクを区別することで、タスクウィンドウごとに12種類のタスクを表現する。

#### [0219]

以上が命令のタスク割当及びタスクスケジューリングの例である。次に、命令間の依存関係を表現するため、特定の命令をコミット命令に変換する。

#### [0220]

図24では、条件分岐命令(beq, bne)及びサブルーチンから復帰する ためのレジスタ間接ジャンプ命令(jr)がコミット命令に変換する対象となる

### [0221]

図24の最初に表れるbne命令の分岐条件が満たされない場合にのみ実行される命令群は、全てこのbne命令の以前に配置されている。よって、最初のbne命令はcmt命令に変換される。他のbne命令、beq命令はbcmt命令に変換され、jr命令はrcmt命令に変換される。

### [0222]

図25がコミット命令発行後のプログラムコードである。コミット命令が承認 ・否認するタスク群については、タスクが属する命令実行ユニットの番号と、命 令実行ユニットごとのタスク番号(図24で命令ニーモニックに付加された番号 )の組で表現している。

#### [0223]

図24のプログラムコードにレジスタ割当及び生成・消費フラグを付加することで、本実施形態で動作するプログラムコードが得られる。

### [0224]

この例では、記号レジスタ\$112と\$113を更新する命令がそれぞれ2つ存在するため、これらの記号レジスタにはグローバルレジスタを割り当てる。サブルーチン間のインタフェースに利用されるレジスタに対してもグローバルレジスタが使用される。他のレジスタについてはローカルレジスタを割り当てる。

#### [0225]

最後に、異なる実行キューに属する命令間にデータ依存関係がある場合には、 データの受け渡しに利用されるレジスタに生成フラグ (P:) または消費フラグ (C:) を付加する。以上のようにして得られた最終的なプログラムコードを図 25に示す。

### [0226]

図25のプログラムコードでは、"#"のついたレジスタがローカルレジスタを示し、他のレジスタはグローバルレジスタを示す。また、"#"の前に番号のついたローカルレジスタを出力とする命令は、その番号でしめされるローカルレジスタセットの、指定されたローカルレジスタを更新する。

### [0227]

なお、本実施形態におけるコンパイラはソフトウェアとしても実現可能である

。また、本実施形態におけるコンパイラは、コンピュータに所定の手段を実行させるための(あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるための)プログラムを記録したコンピュータ読取り可能な記録媒体としても実施できる。

[0228]

本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲に おいて種々変形して実施することができる。

[0229]

### 【発明の効果】

本発明によれば、命令間の依存関係をコミット命令及びレジスタの生成・消費フラグを用いて表現するようにしたので、より少ないハードウェア量で従来のプロセッサよりも広範囲でのout-of-order命令実行が可能になり、かつ命令が投機的か否かをコンパイラで明示し、投機的でない命令を投機的な命令より優先して実行することで、不必要な命令が演算器を占有することによる性能低下を回避し、プロセッサの性能を向上させることが可能となる。

#### 【図面の簡単な説明】

- 【図1】 本発明の第1の実施形態に係るプロセッサの構成例を示す図。
- 【図2】 本発明の第1の実施形態におけるパイプライン処理の一例を示すフローチャート。
- 【図3】 演算器割当部をタスクと実行キューの関係を保存するマップにより実現する場合について説明するための図。
- 【図4】 実行キューの構成例を示す図。
- 【図5】 オペランド状態判定部が持つレジスタスコアボードの一例を示す図。
- 【図6】 ロード・ストア命令処理の一例を示すフローチャート。
- 【図7】 ストアバッファの構成例を示す図。
- 【図8】 ロードバッファの構成例を示す図。
- 【図9】 ロード命令をロードバッファに登録するための処理の一例を示すフローチャート。
- 【図10】 コンフリクトバッファの構成例を示す図。

#### 特平11-267889

- 【図11】 cmt命令を含まないプログラムの一例を示す図。
- 【図12】 cmt命令を含むプログラムの一例を示す図。
- 【図13】 bcmt命令を含まないプログラムの一例を示す図。
- 【図14】 bcmt命令を含むプログラムの一例を示す図。
- 【図15】 1 c m t 命令を含まないプログラムの一例を示す図。
- 【図16】 1cmt命令を含むプログラムの一例を示す図。
- 【図17】 dcmt命令を含むプログラムの一例を示す図。
- 【図18】 プログラムの一例を示す図。
- 【図19】 データ依存列の分岐について説明するための図。
- 【図20】 データ依存列の合流について説明するための図。
- 【図21】 記号レジスタで記述されたプログラムの一例を示す図。
- 【図22】 図21のプログラムに存在するデータ依存列を説明するための図。
- 【図23】 図21のプログラムにデータ依存列の投機的移動を施した結果の一例を示す図。
- 【図24】 図23のプログラムにタスク割当を施した結果の一例を示す図。
- 【図25】 図24のプログラムにコミット命令への変換を施した結果の一例を示す図。
- 【図26】 図25のプログラムにレジスタ割当及び生成・消費フラグの不可を 施した結果の一例を示す図。
- 【図27】 predicate付き命令を含まないプログラムの一例を示す図
- 【図28】 predicate付き命令を含むプログラムの一例を示す図。

#### 【符号の説明】

- 1 … メモリ
- 2…アドレス生成部
- 3…命令フェッチ部
- 4…命令キュー
- 5…命令デコード部
- 6 … タスクウィンドウ識別子生成部

- 7 …演算器割当部
- 8~10…実行キュー
- 11…オペランド状態判定部
- 12~14…命令実行ユニット
- 15~17…ローカルレジスタ
- 18…グローバルレジスタ
- 19…グローバルレジスタ更新部
- 20…ロードバッファ
- 21…ストアバッファ
- 22…アドレスバス
- 23…命令フェッチバス
- 24…命令キューバス
- 25…デコードバス
- 26~28…実行キューバス

### 【書類名】 図面

### 【図1】



# 【図2】



【図3】

| タスク | 実行キュー | 有効 |
|-----|-------|----|
| 1   | 5     | 0  |
| 2   | 3     | 1  |
| 3   | 1     | 1  |
| 4   | 4     | 1  |

# 【図4】

| 命令の種類 | オペランド情報       | 例外情報 |                  |
|-------|---------------|------|------------------|
|       |               |      | ·                |
| l w   | 7, 3, 0 (0)   |      | <b>←</b> tail    |
| s l l | 3, 4, 0 (6)   |      | <b>←</b> execute |
| addiu | 4, 5, 0 (100) |      | c o mm i t       |
| addu  | 5, 6, 0 (0)   |      | head             |
|       |               |      |                  |
|       |               |      |                  |

# 【図5】



## 【図6】



【図7】

アドレス ストア値 ストア幅 TWID CMT CLR 0 **←**tail 0 ...H 1 10046e3c 3d70 В 0 0 1 10002a1e **1**f 1 0 **◆**head W 0 10015d60 1eb94

# 【図8】

| アドレス     | レジスタ                    | valid    | RFL | _             |
|----------|-------------------------|----------|-----|---------------|
|          |                         |          |     | <u> </u> .    |
| 100143e0 | 02,08,15,22,10,34,01,05 | 00101001 | 0   | <b>d</b> tail |
| 10003160 | 03,05,14,13,07,04,05,08 | 01000101 | 1   | <b>←</b> head |
|          | ••                      |          |     |               |
|          | <u> </u>                |          |     | }             |

# 【図9】



【図10】

| タスク | ロードアドレス  | ロート帽 | CNF | VLD |
|-----|----------|------|-----|-----|
| 3   | 1000923a | Н    | 0   | 1   |
| 4   | 1001024c | W    | 1.  | 0   |
| 2   | 1002149d | В    | 1   | . 1 |
|     | •-•      | ·    |     |     |
|     |          |      |     |     |

```
【図11】
       lbu. e $3, Ch_1_Glob($0)
               $3, $6, $L48
       b n e
              $ 5, Int_Glob($ 0)
       lw. e
       addiu $7, $7, -1
               $2, $0
       move
       subu
               $3, $7, $5
               $3,0($4)
$L48:
       addiu $6,$0,5
【図12】
           $3, Ch_1_Glob ($0)
1:1bu. e
            $5, Int_Glob ($0)
2:1w. e
            $7, $7, -1
2: addiu
            $2, $0
3:move
            $3, $7, $5
2:subu
            $3,0($4)
2:sw
1:cmt. ne $3, $6,
            11, 2, 31, 2, 31
            $6, $0, 5
1:addiu
【図13】
                $4, Int_Glob ($0)
        lw. e
                $3, $4, 101
        slti
                $3, $0, $L14
        bne
                $ L 9
                $0, 0 ($56)
        s w
        addiu $3, $0, 3
$L14:
【図14】
                     $4, Int_Glob ($0)
        1: lw. e
                     $0,0($56)
        2 : s w
                     $3, $4, 101
        1:slti
        1:bcmt. ne $3, $0, $L14,
                     11, 21, 121
```

\$ L 9

\$3, \$0, 3

1 : j

\$L14: 2:addiu

### 【図15】

lw \$3,0(\$57)
sw \$16,16(\$sp)
\$L41: lw \$9,0(\$11)
addiu \$11,\$11,16
sw \$9,0(\$3)
bne \$11,\$10,\$L41

### 【図16】

1: lw \$3, 0 (\$57)
3: lw \$9: P, 0 (\$11)
3: addiu \$11, \$11, 16
4: sw \$9, 0 (\$3)
2: sw \$16, 16 (\$sp)
3: lcmt. ne \$11, \$10, \$L41, [3, 4], [1, 2]

## 【図17】

1:1w \$3,0(\$57)
1:addu \$9,\$3,\$4
3:d.addu \$9,\$3,\$4
3:sw \$9,0(\$57)
3:dcmt \$9,{3}

### 【図18】

```
1:move P:$_5, $4
                                             [1]
        1:addiu P:$_1, $0, 65
                                             [2]
        1:addiu P:$5, $0, 1
                                             [3]
        1:lw $_1, 0 ($_5)
                                             [4]
        1:nop
                                             [5]
        1: nop
                                             [6]
        1:addiu P:$6, $_1, 10
                                             [7]
        1:nop
                                             [8]
        1:nop
                                             [9]
 $ L 4 6:
        3:addiu $6, $6, -1
                                             [10]
        2: lbu. e $_2, Ch1_Glob($0)
                                             [11]
        3: lw. e P: $1_3, Int_Glob ($0)
                                             [12]
        3:subu P:\$_4,\$6,\$_3
                                             [13]
        2:bcmt. ne $_2, $_1, $L48
                                             [14]
           {1_1, 1_3, 2_1, 2_2, 3_1, 3_3, 3_4}, {1_3, 1_4,
3_3, 3_4|
        4:move P:$5, $0
                                             [15]
        4:sw $_4, 0 ($_5)
                                             [16]
        2: nop
                                             [17]
        4: nop
                                              [18]
$L48:
        3: nop
                                             [19]
        2: nop
                                             [20]
        1: lcmt. ne $5, $0, $L46
                                              [21]
           11_3, 1_4, 2_2, 3_1, 3_3, 3_4, ||
        1:rcmt $31
                                              [2 2]
           11_11
        1:nop
                                              [2 3]
        1:nop
                                              [24]
```

# 【図19】



# 【図20】



## 【図21】

```
reflect:
       move $114. $6: move $113. $5: move $112. $4
       slti $115, $114, 2; nop; nop
       bne $115, $0, $L109: nop: nop
       lw. e $117, boardsize ($0); addiu $116. $113, 1; nop
       subu $113, $117, $116; nop; nop
SL109:
       addiu $118, $0, 1; nop; nop
       beq $114, $118. $L111: nop: nop
       addiu $119. $0.3; nop; nop
       bne $114, $119, $L110; nop; nop
SL111:
       lw. e $121, boardsize ($0); addiu $120, $112, 1; nop
        subu $112. $121. $120; nop; nop
SL110:
        lw. e $123, boardsize($0); nop; nop
        mult $113, $123; nop; nop
        nop; nop; nop
        nop; nop; nop
        mflo $124; nop; nop
        jr $31; addu $2, $124, $112; nop
```

### 【図22】

```
(基本プロック1)
データ依存列1
          move $114, $6
           slti $115, $114, 2
           bne $115, $0, $L109
          move $113, $5
データ依存列2
          move $112, $4
データ依存列3
(基本プロック2)
データ依存列4
          lw. e $117, boardsize ($0)
          addiu $116, $113, 1
データ依存列 5
           subu $113, $117, $116
(基本プロック3)
データ依存列6
          addiu - $118, $0, 1
           beq $114, $118, $L111
(基本プロック4)
データ依存列7
          addiu $119, $0, 3
           bne $114, $119, $L110
(基本ブロック5)
データ依存列 8
           lw. e $121, boardsize ($0)
データ依存列9
           addiu $120, $112, 1
           subu $112, $121, $120
(基本プロック6)
データ依存列10
          lw. e $123, boardsize ($0)
          mult $113, $123
           nop
           nop
          mflo $124
```

addu \$2, \$124, \$112

データ依存列11 jr \$31

# 【図23】 reflect: lw. e \$123, boardsize (\$0): move \$114, \$6: move \$11 3. \$5: mult \$113, \$123; slti \$115, \$114, 2; move \$112, \$4 nop: lw. e \$117, boardsize (\$0); addiu \$116, \$113. 1 nop: bne \$115, \$0, \$L109; subu \$113, \$117, \$116 \$L109: mflo \$124; addiu \$118, \$0, 1; addiu \$119, \$0, 3 nop: beq \$114, \$118, \$1111; nop nop; bne \$114, \$119, \$L110; nop \$L111: addiu \$120, \$112, 1; lw. e \$121, boardsize (\$0); nop subu \$112, \$121, \$120; nop; nop \$L110: addiu \$2, \$124, \$112; jr \$31; nop 【図24】 reflect: 3; iw. e \$123. boardsize (\$0); 1:move \$114. \$6; 1:move \$11 3:mult \$113, \$123; 1:slti \$115, \$114. 2; 2:move \$112, \$4 3:nop; 3:lw. e \$117, boardsize(\$0); 3:addiu \$116, \$113, 1 3:nop; 1:bne \$115, \$0, \$L109; 3:subu \$113, \$117, \$116 \$L109: 3:mflo \$124: 1:addiu \$118, \$0, 1: 3:addiu \$119, \$0, 3 3:nop; 1:beq \$114, \$118, \$L111; 3:nop 1:nop; 1:bne \$114, \$119, \$L110; 1:nop SL111: 1:addiu \$120, \$112, 1; 1:lw. e \$121, boardsize(\$0); 1:nop 1: subu \$112, \$121, \$120; 1: nop; 1: nop

1:addiu \$2, \$124, \$112; 1:jr \$31; 1:nop

S L 1 1 0 :

### 【図25】

```
reflect:
 3:1w. e $123, boardsize($0); 1:move $114, $6; 1:move $1;
 3:mult $113, $123; 1:slti $115, $114, 2; 2:move $112, $4
 3:nop; 3:lw. e $117, boardsize($0); 3:addiu $116, $113, 1
 3: nop: 1:cmt. ne $115, $0,; 3:subu $113, $117, $116
            12_1. 2_3, 3_1, 3_2, 3_31, 12_3, 3_31
 3:mflo $124: 1:addiu $118, $0, 1: 3:addiu $119, $0, 3
 3:nop; 1:bcmt. eq $114, $118, $L111.; 3:nop
            11_3, 2_1, 3_3, 3_41, 13_3, 3_41
 l:nop; l:bcmt.ne $114, $119, $L110,; l:nop
            11_1, 2_1, 3_11, 1
$L111:
 1:addiu $120, $112, 1; 1:1w. e $121, boardsize($0); 1:nop
 1:subu $112, $121, $120; 1:nop; 1:nop
SL110:
 1:addiu $2, $124, $112; 1:rcmt $31,; 1:nop
                             {1_1, 2_1}
```

### 【図26】

```
reflect:
 3: lw. e $_1, boardsize ($0): 1:move P:$_1, $6: 1:move P:$3.
$5:
 3:mult $3, $_1; 1:slti $_1, $_1, 2; 2:move P:$7, $4
 3:nop: 3:1w. e P:$3_2, boardsize($0); 3:addiu $_1, $3, 1
 3:nop; 1:cmt. ne $_1, $0,; 3:subu $3, $_2, $_1
            12_1. 2_3. 3_1. 3_2. 3_31. 12_3. 3_31
 3:mflo P:$_2; 1:addiu $_2, $0, 1; 3:addiu P:$2_3, $0, 3
 3:nop: 1:bcmt.eq $_1, $_2, $L111,; .3:nop
            11_3, 2_1, 3_3, 3_41, {3_3, 3_4}
 1:nop; 1:bcmt.ne $_1, $_3, $L110,; 1:nop
            11_1, 2_1, 3_1, {
SL111:
 1:addiu $_3, $7.1; 1:1 w. e P:$1_4, boardsize($0); 1:nop
 1:subu $7, $_4, $_3; 1:nop; 1:nop
SL110:
 1:addiu $2. $_2. $7; 1:rcmt $31.; 1:nop
                              11_1, 2_11
```

### 【図27】

beq r3, r4, L2
li r5, 0
j L1
L2: sll r6, r10, 2
li r5, 1

Ll: move r2, r5

### 【図28】

- (1) pseq <pl, p2>, r3, r4
- (2) 1 i r 5, 0
- (3) < p1 > s11 r6, r10, 2
- (4) < p1 > 1 i r 5, 1
- (5) move r2, r5

【書類名】 要約書

【要約】

【課題】 広い範囲でのout-of-order実行と、不必要な命令実行が 生じた場合の性能低下の度合を小さくすることを可能とする中央演算装置の提供

【解決手段】 プログラムが予め定められたデータ依存性を有する命令列の単位で区切られ、各命令列間の制御依存性はコミット命令により表現され、データ依存性はフラグを命令が使用するレジスタに付与することにより表現され、識別番号を命令毎に付与する識別番号付与手段6と、命令を演算実行ユニット12~14に属する複数のバッファ8~10に割り当てる演算器割当手段7と、特定の命令列が前記コミット命令の実行により承認された場合に、レジスタを更新させるレジスタ更新手段19と、メモリを更新させるメモリ更新手段21とを備えたことを特徴とする中央演算装置。

【選択図】 図1

# 認定・付加情報

特許出願の番号

平成11年 特許願 第267889号

受付番号

59900919439

書類名

特許願

担当官

第七担当上席

0096

作成日

平成11年 9月27日

<認定情報・付加情報>

【提出日】

平成11年 9月22日

### 出願人履歴情報

識別番号

[000003078]

1. 変更年月日

1990年 8月22日

[変更理由]

新規登録

住 所

神奈川県川崎市幸区堀川町72番地

氏 名

株式会社東芝